02. 循环神经网络历史

历史一瞥

循环神经网络演变历史如何?过去和现在分别如何发展呢?

02 循环神经网络简介 V4 最后一节

正如这个视频所提到的,循环神经网络的主要缺陷在于,采集超过8到10个步长的关系实际上难以实现。这个缺陷的原因在于"梯度消失"问题,其中信息贡献在一段时间内呈几何级消失。

这意味着什么呢?

你也许还记得,我们使用反向传播算法训练网络时的做法。在反向传播算法过程中,我们使用梯度调整权重矩阵。在这个过程中,通过导数的连续乘法来计算梯度。如果这些导数值可能太小,这些连续乘法可能实际上会导致梯度"消失"。

**长短期记忆网络 (LSTM) **可以解决循环神经网络中的梯度消失问题。

如果你想了解更多梯度消失问题,或想进一步了解等比数列概念及其数值出现几何级下降,请使用这些资源。

如果你仍感到好奇,想要了解这里提到重要里程碑的更多信息,请查看以下链接:

-时延神经网络

-这是1990年Elman网络的论文原稿。此处提供链接,因为这是全球循环神经网络的重要里程碑。为了简便,你可以查阅下列额外信息

-在这个LSTM链接中,你可以找到论文原稿,作者是Sepp HochreiterJürgen Schmidhuber。不过你不需要了解全部细节。我们随后将介绍所有内容!

正如视频中提到的,长短期记忆网络(LSTMs)和门控循环单元(GRUs)通过帮助我们应用具有时间依赖的网络,提供了梯度消失问题的解决方案。这节课中我们将重点讨论循环神经网络,继续学习长短期记忆网络。我们不会重点关注门控循环单元。
如果想要了解门控循环单元的更多内容,可以参阅一下博客。重点关注标题为门控循环单元的综述。